大数据 MapReduce编程实践(1)编程实现文件合并和去重操作

标题提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录一、实验目的二、实验平台三. 实验内容和要求(1)编程实现文件合并和去重操作(2)编写程序实现对输入文件的排序(3)对给定的表格进行信息挖掘四、实验遇到的问题一、实验目的1.通过实验掌握基本的MapReduce编程方法;2.

利用python实现类似数据库中instr功能

#利用python实现数据库中instr的功能.instr(源字符串,目标字符串,起始位置,第n次出现)#利用instr方法实现对指定字符在指定文本中的位置查找#二、统计指定字符出现的次数#三、对出现的字符进行定位import redef match_index(str_object,match_o

plt: subplot()、subplots()详解及返回对象figure、axes的理解

subplot()、subplots()均用于Matplotlib 绘制多图1.两者的区别:subplots 一次性创建并返回所有的子图和其 axe 对象。subplot则是分开多次添加子图。每次调用返回一个子图和对应的 ax 对象。2.plt.subplot()函数原型 subplot(nrows

SparkSQL知识点总结

零基础学sparksql

python获取最大日期的函数

##max(dt)替代方法def check_dt(path, level='G|M|K'): cmd = 'hdfs dfs -du -h ' + path process = os.popen(cmd) # return file output = process.read() proc

一文学会基于发布订阅模式的消息队列Kafka的安装部署和基本使用

Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域。

大数据项目实战——基于某招聘网站进行数据采集及数据分析(一)

大数据项目实战第一章 项目概述文章目录大数据项目实战第一章 项目概述学习目标一、项目需求和目标二、预备知识三、项目架构设计及技术选取总结学习目标掌握项目需求和目标了解项目架构设计和技术选型了解项目环境和相关开发工具理解项目开发流程在人力资源管理领域,网络招聘近年来早已凭借其范围广、信息量大、时效性强

大数据学习——Hadoop集群完全分布式的搭建(超详细)

Hadoop集群完全分布式的搭建JunLeon——go big or go home目录Hadoop集群完全分布式的搭建1、分布式集群的网络和节点规划(1)网络规划(2)节点规划2、分布式集群的环境准备(1)克隆虚拟机(2)网络配置、修改主机名、配置网络映射3、设置SSH无密码登录节点4、安装配置H

flink内存管理,设置思路,oom问题,一文全

flink内存管理与资源大小设置思路,并行度,slot,taskmanager数量三者的数量关系

尚硅谷YYDS (课件资料)

尚硅谷大数据技术之基于虚拟机 CDH5.12.1(Kerberos、Sentry 等)尚硅谷大数据项目之实时数仓项目 13 天(spark+clickhouse+es)尚硅谷大数据技术之 Structured Steaming。尚硅谷大数据技术之 Kubernetes、Zabbix。尚硅谷大数据技术

大数据精准营销应用(一)

大数据精准营销第一部分------数据的处理

大数据知识面试题-Hive (2022版)

Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。Hive中包含以下数据模型:**db:**在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹**table:**在hdfs中表现所属

ClickHouse 与 Hbase的对比

目录1 ClickHouse与Hbase的基础2 ClickHouse与HBase的架构对比2.1 Hbase架构​编辑2.2 ClickHouse的架构​编辑3 基本操作对比3.1 HBase3.2 ClickHouse4 数据查询操作5 各维度对比1 ClickHouse与Hbase的基础had

Spark中的Shuffle

一、Spark Shuffle 概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网 络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也 必须提醒大家的是,影响一个Spark作业性能

大数据-安装 Hadoop3.1.3 详细教程-伪分布式配置(Centos7)

大数据-安装 Hadoop3.1.3 详细教程-伪分布式配置(Centos7)

Flink 常见面试题

Flink 常见面试题

Spark环境搭建安装及配置详细步骤(保姆教程)

Spark环境搭建安装及配置详细步骤

hive-动态分区Dynamic Partition

com往分区表插数据时,需要指定分区。这样一次只能插入一个分区。如果插入数据分散在多个分区中,就要通过动态分区功能,自动创建分区并填充。参数配置在使用动态分区之前,我们要进行一些参数的配置.hive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关

数据建模:维度建模

数据建模:维度建模一、数据建模概述二、维度建模1、维度建模过程2、维度建模的基本要素3、维度建模过程举例一、数据建模概述1、数据模型级别概念数据模型:是用一系列相关主题域的集合来描述概要数据需求。概念模型仅仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体与实体之间关系的描述。逻辑数据模型

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈